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摘要 ”本文 基 于 科斯 定律 ， 结 合 大 数据 3V 特性 生成 综合 分 析 框 架 ， 寻 找 地 理 位 置 隐私 信息 泄露 的 主要 责任 
方 。 利 用 数据 挖掘 、 数 据 可 视 化 和 影子 分 析 等 研究 方法 ， 本 研究 以 合法 手段 尝试 获取 开放 数据 集合 中 社交 媒体 
平台 用 户 地 理 位 置信 息 ， 以 测试 现 有 隐私 保护 方案 的 漏洞 ， 并 寻找 保护 地 理 位 置 隐私 的 最 小 代价 有 效 方案 。 在 
科斯 定律 的 分 析 框 架 下 ， 本 文 认定 了 地 理 位 置 隐私 泄露 的 主要 责任 方 ， 并 根据 隐私 泄露 的 方式 有 的 放 矢 地 提出 
了 相应 对 策 。 
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Abstract Based on a comprehensive analytical framework generated by Coase theorem and three Big Data 
properties, this paper searched for the main liable actor who should be responsible for leakage of geo location privacy. 
Data mining, data visualization and shadowing analysis were adopted to gather social media user location information 
legally from open data platform. It was used to test the vulnerability of existing privacy protection mechanisms and 
seek the effective solution of the minimum cost for geo location privacy protection. In the above framework, the main 
liable actor was decided and a particular countermeasure was proposed. 
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1 引 Š 


pes 日 益 发 展 的 大 数据 分 析 技 术 如 同一 把 双 刃 剑 ， 在 给 人 们 带 来 了 便捷 、 效 率 与 个 性 化 体验 的 
e 同时 ， 也 威胁 着 用 户 隐 私信 息 的 安全 中 ,移动 社交 媒体 运营 商 、 公用 事业 机 构 与 政府 网 站 都 在 大 
- 规模 开放 原始 数据 。 数 据 开放 的 趋势 使 得 隐私 泄露 的 威胁 逐渐 加 大 。 已 有 的 案例 证 明了 地 理 
FT MAE RR aa AREA EE, 201012 月 ， 新 上 线 的 网 站 “Please rob me" WHE 
人 们 在 Foursquare 应 用 上 面 的 签到 信息 推测 出 哪些 人 不 在 家 中 ， 给 了 盗贼 十 足 的 可 乘 之 机 。 
用 户 的 签到 行为 让 许多 跟踪 狂 (stalker) 异常 欣喜 ， 他 们 利用 Foursquare 设计 的 API 对 某 个 设 
定 区 域内 的 女性 用 户 进行 定位 ， 搜 寻 潜 在 的 受害 者 。2012 年 5 月 ，Foursquare 网 站 不 得 不 关闭 
了 相应 的 APT 数据 调用 功能 ” 。 
开放 数据 引发 的 地 理 位 置信 息 泄 露 问 题 曾 经 被 许多 研究 者 关注 过 ， 并 提出 了 若干 种 对 策 王 
2。 然 而 经 过 本 课 题 组 对 相关 文献 的 梳理 ， 尚未 发 现 有 效 的 用 户 地 理 位 置 保护 方案 。 我 们 依据 文 
献 的 回顾 ， 主 要 归结 为 以 下 两 方面 的 原因 : 
一 是 大 数据 的 特性 更 为 复杂 。 大 数据 具有 容量 大 (volume〉、 速 度 快 (velocity) 和 种 类 多 
(variety) 的 3V 特 性 "中 ,不 同类 别 数据 的 混杂 ， 使 得 追溯 用 户 隐 私信 息 泄 圳 的 源头 更 为 困难 。 


M 


: 收 稿 日 
作者 介绍 ， 王 树 义 ， 男 ，1982 年 生 ， 博 士 ， 讲 师 ， 硕 士 研究 生 导 师 。 主 要 研究 方向 ， 社 交 媒 体 信息 分 析 。 
E-mail: nkwshuyi@gmail.com。 吴 查 科 ， 男 ，1991 年 生 ， 硕 士 研究 生 。 主 要 研究 方向 : 社交 媒体 信息 分 析 。 
1) ， 本 文系 国家 社 科 基金 青年 项 目 “ 基 于 信息 价格 动态 揭示 的 社交 媒体 用 户 隐私 保护 研究 ”( 项 目 编号 ; 
15CTQ017) 的 研究 成 果 之 一 。 


二 是 地 


归属 ， 而 是 主观 地 判定 某 


里 位 置 隐私 保护 的 责任 划分 不 


科斯 定律 (Coase Theorem) ÙX, fi 
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数据 三 个 维度 和 “用 户 ” 


认定 主要 
F: 


(1) 在 大 数据 的 不 同 特性 维度 下 
(2) 在 各 参与 主体 中 ， 判 定 地 


责任 方 和 主要 泄漏 途径 的 基础 上 提出 针对 性 的 对 策 。 


参与 主体 需 


明晰 。 


以 往 的 研究 3 
要 承担 责任 ， 进 而 直接 给 


不 考虑 交易 成 本 情况 下 ， 多 个 主体 进行 责任 
的 代价 最 小 的 一 方 应 被 认定 为 主要 责任 方 ""。 
、“ 开 放 数据 平台 ”和 “监管 


， 考 察 地 理 位置 隐 私 泄露 的 途径 和 潜在 危害 ; 


位 置 隐私 信息 


泄露 的 主要 责任 方 ; 


(3) 探讨 主要 责任 方 避免 隐私 信息 泄露 的 有 效 对 策 。 


下 文 我 们 将 在 文献 回顾 的 基础 上 ， 


本 节 对 隐私 信息 的 泄露 责任 主体 认定 以 及 保护 对 策 等 方 


2.1 信息 泄 时 
在 对 于 责任 主体 认定 的 相关 文献 中 ， 有 人 认为 运营 商 应 当 对 信息 


Feinman 认为 ， 运 营 商 在 数据 泄露 事件 中 因为 没 
明 认 为 个 人 信息 


王 利 


员 与 第 三 方 等 主体 ， 对 侵害 个 人 信息 
违规 和 数据 泄露 的 公司 已 经 根据 各 种 法 律 理由 被 起 诉 ， 最 终 受到 严格 的 法 律 制裁 ”” 。 也 


原因 归咎 于 监管 机 构 。 E 


分 析 与 回应 上 述 


问题 。 


2 文献 回顾 


圳 责任 主体 认定 


未 具体 六 


具体 而 言 ， 


用 的 相关 文献 进行 梳理 。 


本 文 依照 科斯 定律 ， 
机构” 三 个 不 同 主体 ， 制 定 分 析 框 架 , 在 
本 文 要 解决 的 问题 如 


随意 进行 收集 ， 


位 置信 息 


建 需 要 通过 法 律 、 专 门 委 员 


露 用 户 信息 
R., 


2.2 隐私 信 


各 方 尝试 了 从 不 同 角 度 的 许多 方法 来 保护 有 用户 
常用 的 隐私 保护 方式 包括 匿名 化 和 聚合 地 理 位 置 2 
大 数据 的 关联 分 析 技术 也 
也 理 位 置 隐私 信 


算法 与 工具 出 现 叶 ， 而 
技术 使 得 上 述 保护 用 户 寺 


的 前 提 是 


王 娜 等 人 从 提升 个 人 的 安全 素养 方面 
发 现 有 研究 者 针对 开放 数据 环境 下 信息 


会 等 方面 进行 完善 


对 隐私 主体 个 人 的 了 解 和 掌握 ， 


息 保护 对 策 类 型 


泄露 的 责任 划 


正确 管理 敏感 数据 ， 应 该 担负 3 
的 大 面积 泄露 的 责任 问题 应 当 从 立法 的 角度 解决 ， 
权利 所 需要 承担 的 责任 。 


泄露 负责 o 


F 细 考察 隐私 泄露 的 责任 
8 解决 方案 。 
F 划 分 时 ， 


结合 大 


如 Todd 
ES S EU UTE [14] : 


明确 运营 机 构 、 工 作 人 


一 些 法 律 诉讼 中 ， 有 严 


致使 一 些 应 用 公司 对 用 户 的 地 理 
GET HIP SOR Mes E HERR UU om 


Tet) esami 


BERIT EA 
对 个 人 隐私 信 ; 


E. ff 3 


地 探究 。 


也 理 位 置 隐私 信息 。 


从 技术 方面 来 看 ， 
3。 然而 ， 目 前 已 经 有 比较 成 熟 的 去 匿名 化 
使 得 多 角度 综合 定位 成 为 可 能 包 ， 
FE 段 失去 本 来 应 有 的 效果 


[7， 8) 


重 资料 
有 人 将 


B t 
WAA 73 ftr E 
息 的 源头 进 
息 保 护 做 出 了 建议 四 。 但 是 尚未 
分 进行 充分 而 详细 


目前 


这 些 新 


从 监管 方面 来 看 ， 美 国 与 韩国 分 别针 对 地 理 位 置 隐私 保护 出 台 了 《位 置 隐私 保护 法 
《位 置信 息 保护 法 》。 中 国 自 2016 年 开始 施行 的 4 地 图 管理 条 例 》 对 互联 网 地 图 服务 单位 收集 和 保 
护 个 人 信息 的 义务 制定 了 罚 则 5 但 是 由 于 新 媒体 技术 发 展 日 新 月 异 ， 监 管 部 门 即便 已 经 努力 
应 对 ， 相 关 制 度 依 然 不 尽 完善 ” 。 

运营 商 的 管理 与 自我 约束 方面 ， 


EAE) 和 


Foursquare 已 经 调整 了 用 户 签到 功能 的 APT 数据 调用 ， 从 


最 初 的 记录 所 有 签到 位 置信 息 ， 到 目前 只 有 当 用 户 显 式 指定 的 时 候 才 会 记录 地 理 位 置信 息 
8! Twitter 也 已 默认 关闭 用 户 的 地 理 位 置信 息 分 享 喇 。 为 了 让 用 户 可 以 清楚 的 看 到 自己 的 隐私 
安全 情况 ，Facebook 推出 了 一 款 “ 隐 私 检 查 工 具 ”， 


以 避免 用 户 出 现 “ 过 度 分 享 ” 的 情况 。™ 
用 户 安全 草 识 培养 方面 ， 昌 然 很 多 学 者 做 了 各 种 努力 但 用 户 依然 在 轻松 愉快 且 乐 此 
不 疲 地 分 享 着 自己 的 各 种 信息 ” 。 综 上 所 述 ， 目 前 针对 开放 数据 平台 的 地 理 位 置信 息 泄漏 问题 
的 责任 划 定 不 明确 ， 且 提出 的 各 种 解决 方案 效果 不 佳 ， 本 文 引 用 经 济 学 科斯 定律 界定 主要 责任 
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3.1 研究 框架 


^8 


3 ”人 研究 设计 


Jongbin Jung 等 人 通过 建立 一 套 简单 的 决策 规则 方法 ， 在 多 个 不 同 大 小 与 复杂 性 的 领域 


进行 研究 分 本 


, 
H 


; 
单 规 则 同样 能 

384118 7 
同 特性 下 ， 利 


Cit 


研究 得 到 的 结果 与 研究 采用 复杂 的 回归 方法 分 析出 的 结果 相 匹配 ， 他 们 认为 简 
进行 科学 决策 ” 。 本 研究 在 方法 设计 中 采用 了 这 一 思想 。 

绘制 了 隐私 泄露 责任 分 析 框 架 的 初始 图 。 按 照 初始 框架 ， 分 别 在 大 数据 的 三 个 不 
用 影子 分 析 方 法 ， 收 集 开 放 数 据 环境 中 的 地 理 位 置 数 据 ， 对 数据 进行 可 视 化 操作 ， 


进行 实例 研究 。 我 们 根据 科斯 定律 ， 对 避免 地 理 位 置 隐私 泄露 所 需 付出 代价 最 小 的 主体 计 1 分 ， 


大 数据 特 必 


3.2 研究 方法 


其 余 主体 不 计 分 ， 最 后 对 计 分 求 和 。 图 1 为 隐私 泄露 责任 分 析 框 架 ， 初 始 值 均 为 0。 


表 1_ 隐私 泄露 责任 分 析 框 架 〈 初 始 ) 


为 了 实现 研究 目标 ， 本 文采 用 的 
(1) 数据 挖掘 。 我 们 使 用 了 开放 数据 平台 所 提供 的 API、 Python 语言 扩展 模块 tweepy、1lxml 
函数 库 等 对 开放 数据 进行 获取 与 分 析 。 
(2) 数据 可 视 化 。 本 文 使 用 Python 平台 的 Bokeh 和 Google 地 图 API 等 工具 对 数据 进行 可 


视 化 分 析 。 


对 象 如 何 思考 、 


数据 中 尝试 获得 用 户 隐 私 数据 。 


可 


3.2 数据 来 源 


完 方法 如 下 : 


, 


(3) RET AME. EOTUOKUSCT XROSIES AUAM ETAR” US, HÝWCARIEF 
情报 领域 较为 流行 的 一 种 分 析 方 法 j 


它 通 过 监视 某 个 竞争 者 或 者 市 场 ， 以 深入 了 解 监视 


分 析 和 行动 。 本 文 使 


影子 分 析 法 ， 站 在 地 理 位置 隐 私 和 帘 伺 者 角度 ， 从 开放 


本 文 分 别 从 以 下 几 个 开放 数据 平台 中 收集 地 理 位 置信 息 : 
(1) 社交 媒体 平台 Twitter。https://dev. twitter. com/overview/api 
(2) 芝加哥 市 政 交 通 公 开 数 据 平 台 。https://data. cityofchicago. org/browse?category 
=Transportation 


4 容量 特性 下 的 信息 获取 
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社交 媒体 平台 每 日 会 产生 大 量 数据 ， 其 中 大 部 分 包含 着 地 理 位 置信 息 ， 而 社交 媒体 平台 有 


专门 的 元 数据 类 型 专 司 对 用 户 地 理 位 置信 息 进 行 收集 。 截 止 到 2016 年 12 月 ， 国 际 流行 社交 媒 
体 应 用 Twitter 的 月 活跃 用 户 达 3. 13 亿 ， 平 均 每 天 发 表 5 亿 条 Tweets" 。 该 社交 平平 台 对 外 发 


fa y APIO, FIA 
收集 到 的 Twitter 用 户 地 到 


有 门 数据 集合 ， 令 第 三 方 可 以 获取 到 大 量 的 用 户 地 理 位 置信 息 。 本 节 便 以 
位 置 数据 为 例 ， 探 讨 在 容量 特征 下 地 理 位 置 隐私 泄露 的 主要 责任 方 。 
我 们 利用 Python 语言 扩展 模块 tweepy 来 收集 Twitter 平台 用 户 发 布 的 Tweets 数据 。 


Twitter 不 允许 用 户 尝试 获取 全 部 Twitter 数据 流 ， 但 是 开放 了 1% 的 实时 随机 抽样 数据 供用 户 
使 用 ， 然 而 对 绝 大 部 分 研究 来 说 这 1% 的 数据 已 过 于 庞大 。 因 此 我 们 这 里 做 出 两 个 限定 : 一 是 我 


们 只 收集 带 有 地 到 


条 数据 就 结束 收集 过 程 。 
根据 收集 到 的 数据 ， 我 们 发 现 这些 用 户 都 在 Tweets 中 透露 了 自己 的 地 理 位 置信 息 。 我 们 采 


H T Bokeh 数据 可 视 化 了 


EE 位置 信息 的 Tweets 数据 ， 二 是 为 了 避免 滥用 网 络 资源 ， 我 们 只 收集 10000 


[有 具 来 标示 地 理 位 置信 息 的 用 户 分 布 ， 调 用 其 中 的 世界 地 图 模型 ， 将 收 


获 的 10000 条 地 理 坐 标 信息 “ 钉 ” 在 地 图 上 。 获 得 的 结果 如 图 1 所 示 。 


图 1 公开 地 理 位 置信 息 的 Twitter 用 户 群 体 分 布 


从 图 1 中 我 们 可 以 看 到 ， 公 开 了 自己 地 理 位 置信 息 的 用 户 分 布 在 世界 各 地 。 在 我 们 收集 数 


AE ET BH 
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洲 和 东南 亚 等 地 。 因 为 时 区 关系 ， 
此 案例 中 ， 我 们 可 以 看 到 数量 庞大 的 地 理 位 置 数据 能 通过 APT 轻易 获取 ， 对 于 主要 责任 方 的 分 
析 探 讨 更 显 必 要 。 

首先 是 监管 机 构 ， 用 户 在 注册 Twitter 时 就 已 同意 运营 商 的 服务 条 款 与 隐私 政策 ， 在 两 方 


未 违反 协议 的 情况 下 ， 监 管 机 构 已 履行 自身 职责 ， 不 承担 用 户 地 理 位 置 隐私 信息 泄露 的 责任 。 


对 于 运营 商 来 说 ， Twitter 在 原始 设置 当中 已 经 默认 关闭 了 地 理 位 置 的 分 享 ， 需 要 用 户主 动 


主动 开启 才能 进行 地 到 
而 运营 方 并 不 能 干涉 月 


分 享 功能 有 


区 主要 包括 美洲 (尤其 是 美国 中 东部 、 巴 西南 部 和 阿根廷 )、 欧 


这 一 静态 图 像 只 展示 出 了 全 球 一 部 分 用 户 的 所 在 位 置 。 然 而 在 


位 置 的 分 享 。 在 这 个 案例 中 ， 用 户 对 于 地 理 位 置 分 享 是 主动 并 知情 的 ， 


p 可 。 根 据 科斯 定律 ， 


昌 户 对 于 分 享 功 能 的 使 用 ， 用 户 想 要 保护 隐私 信息 的 安全 ， 只 要 不 去 开启 


“监管 机 构 ” 和 “运营 方 ”不 是 做 出 避免 地 理 位 置 隐私 信息 泄 


露 所 需 成 本 最 小 的 一 方 ， 而 恰恰 是 “用 户 ” 这 个 主体 所 需 成 本 最 小 。 因 而 在 容量 特性 下 ，“ 用 


户 ” 是 地 到 


位 置 隐私 泄露 的 主要 责任 方 ， 我 们 在 这 里 给 “用 户 ” 计 上 1 分 。 


表 2 隐私 泄露 责任 分 析 框 架 


放 数 据 平台 in 


Al 


5 速度 特性 下 的 信息 获取 


用 户 在 社交 媒体 平台 所 生产 的 数据 通常 以 数据 流 的 形式 出 现 ， 数 据 产生 速度 非常 快 ， 如 果 
(vs 不 能 得 到 及 时 分 析 处 理 便 会 失去 价值 ” 。 本 节 研 究 在 大 数据 速度 特性 下 ， 在 Twitter 社交 平台 
上 某 一 具体 用 户 的 运动 轨迹 信息 可 以 被 实时 提取 时 ， 主 要 责任 应 该 由 哪 一 相关 主体 来 承担 。 

Twitter 会 把 每 一 个 用 户 发 布 的 Tweets 根据 时 间 顺 序 存储 进 数据 库 ， 在 用 户 点 击 时 可 快速 
c2 生成 时 间 线 (根据 时 间 排 列 的 Tweets〉。 我 们 采用 被 处 理 过 后 、 存 储 在 数据 库 的 历史 数据 来 跟 
= 踪 用 户 动态 轨迹 ， 利 用 Tweepy 扩展 模块 的 user timeline 功能 获取 指定 用 户 的 时 间 线 信息 。 
从 上 节 中 搜集 到 的 10000 条 Tweets 中 , 我 们 随机 选择 一 名 用 户 ， 根 据 上 一 部 分 获取 的 信息 ， 
得 知 该 用 户 当前 所 处 位 置 为 印尼 。 然 后 编写 一 段 代 码 ， 读 取 该 用 户 时 间 线 信息 ， 并 抽取 其 中 全 
部 包含 地 理 位 置信 息 的 条 目 。 数 据 分 析 的 结果 显示 ， 该 用 户 最 近 一 段 时 间 活 跃 在 印尼 境内 我们 
e BARRET £t REA gd ELE. WHAT Jm SEC LER Gr LAO Je, ddl CROCI E 
N 在 地 图 上 面 进行 标记 。 我 们 调用 了 Google 地 图 API 中 marker 与 path 功能， 描绘 了 该 用 户 的 运 
> 动 轨迹 ， 如 图 2 所 示 。 
v 从 图 2 中 可 以 看 出 ， 该 用 户 的 活动 非常 规律 ， 主 要 活动 区 域 比较 小 ， 而 且 总 是 在 几 个 固定 
"s 地 点 之 间 和 穿梭 ,其 中 某 些 路 径 线 非常 粗 ， 意 味 着 用 户 在 该 路 径 上 面 多 次 往返 ,根据 常识 我 们 推断 
这 几 个 固定 点 中 包含 了 用 户 的 住所 与 工作 场所 ， 然 而 用 户 被 外 界 清楚 了 解 到 这 样 的 活动 规律 信 
-< 息 则 会 面临 安全 风险 。 


S 


Map data ©2015 Google 


2 Twitter 用 户 运动 轨迹 可 视 化 


在 上 一 节 中 ， 我 们 已 经 论证 过 在 用 户 使 用 Twitter 时 ， 监 管 机 构 不 是 用 户 地 理 位 置 隐私 洪 
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露 的 主要 责任 方 ， 本 节 案 例 中 的 用 户 与 运营 商 的 主体 没有 变化 ， 所 以 我 们 依然 可 以 推断 监管 机 
构 在 本 节 中 不 是 主要 责任 方 。 对 于 运营 方 Twitter 来 说 ， 用 户 一 旦 开启 了 地 理 位 置 分 享 按钮 ， 

设置 便 会 默认 保存 ， 在 下 一 次 撰写 Tweet 时 会 自动 显示 位 置 数据 。 案 例 中 的 用 户 在 分 享 了 一 次 
自己 的 地 理 位 置 后 ， 没 有 关闭 地 理 位 置 按 钮 ， 也 没有 做 出 其 他 能 避免 地 理 位 置 泄露 的 保护 动作 ， 
而 是 再 一 次 将 Tweet 与 地 理 位 置 相 关联 进行 了 分 享 。 而 这 些 数据 都 可 以 实时 被 他 人 通过 APT 进 
行 查 找 。 根 据 科 斯 定律 ， 避 免 地 理 位 置 造成 泄露 所 需要 付出 最 小 代价 的 相关 主体 依然 是 用 户 ， 

Wl 


表 3_ 隐私 泄露 责任 分 析 框 架 


开放 数据 平台 用 户 


大 数据 特 ' 


6 种 类 特性 下 的 信息 获取 


互联 网 中 的 大 数据 ， 包 含 着 种 类 繁多 的 信息 。 即 便 在 Twitter 等 社交 媒体 应 用 上 关闭 了 
地 理 位 置 分 享 设置 ， 由 于 大 数据 的 种 类 特性 ， 用 户 依 然 有 可 能 提供 背景 信息 ， 从 而 暴露 自己 的 
运动 轨迹 。 本 节 利 用 影子 分 析 方 法 ， 收 集 用 户 在 开放 数据 集中 的 信息 ， 找 出 在 此 类 情况 下 的 主 
要 责任 方 。 
有 的 人 经 常 喜 欢 晒 一 下 自己 的 行动 ， 将 旅途 中 一 些 新 鲜 事物 发 布 分 享 给 自己 的 好 友 。 例 如 
Twitter 用 户 Eric 发 推 ， 说 自己 在 芝加哥 146 路 公交 车 上 面 ， 如 图 4 所 示 。 


eric schardt @ESchardt - 5 月 15 日 
ry l'm at @CTA Bus 146 in REMO. IL swarmapp.com/c/Od76Y3HTuuK 
kJ Swarm 


Eric | CTA Bus 146 


Want to keep up with Eric's adventures? Get Swarm, the 
new app from Foursquare. 


在 网 页 上 查看 


3 Twitter 用 户 在 公交 车 上 发 布 照 片 信息 
Eric 的 这 一 条 Tweet 里 面 根本 没有 包含 具体 的 地 理 位 置 坐 标 。 在 他 看 来 


芝加哥 这 样 的 大 


` 
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城市 公交 车 有 很 多 ， 因 此 这 一 信息 足够 宽泛 ， 并 不 会 造成 自己 位 置 坐标 与 活动 路 径 的 泄露 。 然 


而 芝加哥 的 政府 开放 数据 项 目 做 得 非常 领先 ， 因 此 其 交通 系统 〔CTA， 包 含 公交 和 地 铁 ) 的 运 


行 信息 都 可 以 实时 查询 。 


在 浏览 器 中 ， 只 需要 一 条 地 址 指令 即 可 获取 某 一 路 线 所 有 车 辆 的 实时 位 置 
(http://ctabustracker. com/bustime/map/getBusesForRoute. jsp?route=146. ) 。 输 入 上 一 地 


HE, X 


览 器 将 反馈 给 用 户 一 个 XML 文件 。 这 个 XML 文件 包含 了 芝加哥 146 路 公交 车 全 部 实时 运 


行 信息 


即 连 哪个 司机 在 开 哪 一 辆 公交 车 ， 以 及 其 实时 地 理 位 置信 息 都 一 览 无 余 。 


开发 者 可 以 调用 API， 每 间隔 60 秒 钟 查询 并 且 取 一 次 XML 文件。 跟踪 时 间 一 个 小 时 之 内 便 
可 以 获取 60 份 文 件 。 从 这 60 份 XML 文件 中 ， 针 对 每 一 部 车 辆 可 以 分 别提 取经 纬度 坐标 和 时 间 


mp 2c 
ER Fo 


我 们 采用 了 lxml 函数 库 和 xpath 针对 XML 数据 进行 分 析 查 询 ， 把 从 60 份 XML 文件 中 提 


取 到 的 车 辆 路 径 信息 存 入 一 个 字典 对 象 ， 就 可 以 看 到 在 这 个 时 间 段 里 面 跑 在 芝加哥 街头 的 146 


路 公交 车 都 有 哪些 。 


我 们 从 取得 的 数据 中 任意 选择 某 一 辆 车 ， 采 用 Google Static Maps API 对 路 径 信息 进行 


可 视 化 


， 将 每 一 个 采样 的 经 纬度 作为 坐标 置 于 图 上 ， 观 察 其 运行 轨迹 。 对 于 代码 为 4055 的 车 辆 


运行 程序 后 获得 的 图 像 如 图 5 所 示 ， 该 公交 车 过 去 一 个 小 时 全 部 行驶 轨迹 都 被 清楚 标明 在 了 地 


在 


图 上 。 这 样 无 异 于 暴露 了 自己 的 运动 轨迹 。 


节 案 例 中 ， 开 放 数 据 平台 Twitter 与 用 户 同样 没有 违约 情况 出 现 ， 而 政府 交通 系统 甚 


至 没 


地 -ia 


位 置信 


用 户 的 任何 数据 ， 我 们 可 以 认定 监管 机 构 依 然 不 承担 任何 责任 。 对 “开放 数据 平 


台 ”Twitter 和 政府 交通 系统 来 说 ， 用 户 仅仅 是 在 Twitter 上 发 布 了 一 条 简单 的 图 文 信息 ， 其 
至 没有 进行 位 置 分 享 ， 而 芝加哥 交通 系统 也 仅仅 的 提供 了 一 项 实时 的 交通 数据 ， 并 没有 对 用 户 


Map data ©2015 Google 


4 芝加哥 编号 4055 的 146 路 公交 车 运行 轨迹 医 


VR] 


县 泄露 起 到 推动 作用 。 所 以 我 们 认定 两 个 数据 开放 和 平台 不 是 隐私 泄露 的 主要 责任 方 。 对 于 


用 户 来 说 ， 在 移动 社交 媒体 上 发 布 照片 的 同时 标注 详细 的 车 辆 信息 ， 是 具有 地 理 位 置信 息 泄 露 


隐患 的 
的 后 果 


， 一 旦 该 用 户 被 别有用心 者 进行 了 实时 定位 ， 可 能 会 造成 财产 甚至 人 身 安全 都 无 法 保障 
。 本 案例 中 ， 主 要 责任 方 依然 是 用 户 这 个 主体 ， 计 1 分 。 


,包含 着 车 辆 当前 纬度 的 lat 字段 和 经 度 信息 的 lon 字段 ， 还 有 代表 司机 工 号 的 op 字段 。 


y 


表 4 隐私 泄露 责任 分 析 框 架 


大 数据 特 怕 


通过 前 几 节 的 论述 ， 本 研究 得 出 了 最 终 的 开放 数据 环境 下 用 户 隐 私 泄露 责任 框架 表 ， 如 表 4 所 
示 ， 监 管 机 构 与 开放 数据 平台 得 分 为 0， 用 户 得 分 为 3 分， 该 主体 在 大 数据 的 3V 特性 下 被 认为 是 隐 
私 泄露 的 主要 责任 方 。 
j 户 在 共享 地 理 位置 等 信息 时 ， 即 使 部 分 用 户 已 经 意识 到 此 类 信息 行为 可 能 造成 隐私 泄露 ， 还 
e 会 在 担忧 风险 的 同时 继续 分 享 ，Barnes 将 这 一 种 现象 称 之 为 “隐私 悖 论 ”"”。Bechmann 对 12 个 
c 0 他 们 允许 运营 商 随 时 获取 地 理 位 置 等 隐私 数据 ， 即 使 其 中 一 名 同学 
N 对 此 采取 谨慎 的 态度 ， 也 还 是 愿意 提供 信息 O 。 


一 我 们 认为 有 以 下 两 种 可 能 性 造成 该 状况 的 出 现 ， 一 是 发 布地 理 位 置 隐私 信息 可 能 会 为 用 户 带 来 
=, 一 定 的 经 济 利益 。 然 而 对 于 大 部 分 人 而 言 ， 分 享 地 理 位 置 不 能 带 来 经 济 收益 ， 而 由 此 可 能 带 来 的 损 
VN 失 却 不 好 估计 。 特 别 是 在 风险 方面 ， 如 本 文 前 几 节 的 案例 所 示 ，2 分 享 地 理 位 置 可 能 带 来 的 财产 或 人 
2 身 安全 方面 的 威胁 是 显而易见 的 。 可 以 看 出 ， 用 户 进行 地 理 位 置 分 享 所 可 能 承受 的 风险 大 于 可 能 得 
到 的 经 济 利 益 ， 所 以 利益 的 可 能 性 不 能 解释 该 状况 的 出 现 。 第 二 种 可 能 性 是 由 于 用 户 对 地 理 位 置信 
息 的 价值 判断 不 明 ， 导 致 信息 分 享 决策 失误 。 误 判 的 原因 是 用 户 与 开放 数据 平台 之 间 存 在 着 信息 不 
对 称 ， 数 据 平 台 掌 握 着 用 户 大 量 的 信息 ， 并 且 具 备 对 信息 数据 充分 的 商业 转化 能 力 ， 而 用 户 不 清楚 
自己 的 位 置信 息 最 后 会 被 哪些 组 织 机 构 获取 ， 以 及 被 如 何 加 工 利用 ， 从 而 无 法 准确 地 评估 隐私 风险 。 
同时 大 数据 技术 的 发 展 ， 给 用 户 的 位 置 数据 带 来 了 更 多 泄露 途径 和 方式 。 所 以 我 们 认为 是 用 户 与 平 
台 之 间 的 信息 不 对 称 引起 的 误 判 ， 造 成 了 用 户 无 意识 地 将 地 理 位 置 隐私 信息 进行 共享 ， 埋 下 了 泄露 
的 隐患 。 
要 解决 用 户 的 信息 不 对 称 问 题 ， 我 们 认为 要 让 开放 数据 平台 进行 有 效 准确 的 提示 ， 让 用 户 充 分 
了 解 地 理 位 置信 息 的 价值 ， 给 其 在 信息 分 译 决 策 的 过 程 中 有 更 多 的 参考 依据 ， 以 降低 决策 失误 的 频 
率 。 首 先 ， 本 文 认 为 地 理 位 置 数据 的 价值 需要 被 量化 ， 运 营 商 可 通过 用 户 的 位 置 数据 与 相关 联 的 数 
据 之 间 的 依赖 关系 进行 位 置 数据 的 虚拟 价格 计算 。 其 次 ， 运 营 商 需 要 根据 虚拟 价格 计算 结果 对 用 户 
进行 风险 收益 提示 ， 告 知 用 户 即 将 要 发 布 数据 的 虚拟 价格 ， 以 及 该 共享 行为 可 能 存在 的 风险 。 用 户 
有 了 提示 ， 对 隐私 信息 进行 成 本 与 收益 的 权衡 计算 后 ， 能 够 有 效 避 免 因 信息 不 对 称 而 造成 的 隐私 汇 
E 

A 


路， 形成 一 种 良性 的 信息 保护 机 制 。 而 此 举 在 有 效 消 强 信息 部 队 称 的 同时 ， 也 会 增强 用 户 在 使 用 社 
媒体 时 的 正 向 感知 ， 提 升 用 户 满意 度 。 从 科斯 定律 的 角度 来 看 ， 这 也 是 一 种 有 效 降 低 交 易 成 本 的 
制度 ， 有 利于 数据 资源 向 能 产生 最 大 价值 的 一 方 流动 ， 通 过 交易 的 方法 实现 信息 资源 的 由 累 托 最 优 。 

而 目前 主流 应 用 采用 的 信息 价格 的 计算 方法 为 分 批 式 计算 ， 根 据 平台 上 的 广告 数量 去 换算 成 用 
户 的 点 击 流量 成 本 ，。 此 法 虽 有 一 定 可 取 之 处 ， 但 是 还 是 不 能 够 做 到 多 种 类 特性 下 数据 类 型 的 细 粒 
度 区 分 ， 以 及 依照 实际 情况 给 予 用 户 的 个 性 化 输出 。 如 何 去 改 进 已 有 的 地 理 位 置信 息 的 虚拟 价格 揭 
示 手 段 ， 进 行 更 加 具有 个 性 化 的 风险 提示 ， 是 本 研究 下 一 步 所 需要 做 的 工作 。 
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本 文采 用 了 经 济 学 中 著名 的 科斯 定律 ， 从 大 数据 3V 特性 的 不 同 维度 下 ， 对 开放 数据 平 
户 地 理 位 置 隐私 信息 保护 进行 了 综合 分 析 ， 同 时 认定 了 地 理 立 置 隐私 信息 泄露 的 主要 责任 方 是 用 
本 文 提 出 通过 信息 虚拟 价格 提示 的 方式 ， 向 用 户 及 时 透露 信息 ， 消 除 信息 不 对 称 ， 改 变 用 户 决策 过 
程 ， 从 而 确保 隐私 安全 。 
本 研究 的 限制 在 于 缺乏 个 性 化 的 信息 价格 揭示 手段 。 在 进一步 研究 中 ， 我 们 会 充分 寻求 社交 媒 
体 平 台 的 合作 ， 寻 找 更 丰富 的 数据 来 源 ， 以 期 能 找到 用 户 更 加 个 性 化 风险 收益 提示 ， 以 及 信息 虚拟 
价格 的 计算 方法 ， 从 而 帮助 用 户 在 了 解 地 理 位 置 分 享 行为 可 能 付出 的 代价 后 ， 进 行 合理 决策 。 
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